查看原文
其他

时空大数据未来发展的三个趋势~

深度抑郁患者 GIS小丸子
2024-09-03

最近空间数据可视化分析公司—CARTO的创始人Javier de la Torre发布了一篇题为《3 Spatial Data Science Trends to Watch in 2021》的文章,文章虽然不长但是其中关于当下的分析和未来的判断还是挺有意思的。

同时我发现一个比较有意思的地方就是这些后起之秀对自己赛道的定位都不是类似于ESRI这样的GIS公司,他们都将自己称之为Spatial Data Science领域的公司,包括CARTO和我之前文章中提到的Unfold公司。

国内对这个Spatial Data Science确实是有点陌生的,但是在我粗浅的理解看来,可以将其看成也是一种泛GIS或者弱GIS的领域,在国内和我们常说的“时空大数据”很类似,所以在标题上我更倾向于将Spatial Data Science理解为时空大数据,当然这并不是一种严肃的划分。

在文章的开始,Javier de la Torre总结了一下当前行业对于时空数据分析的新需求,但是内容上不仅仅是需求也可以说是一种现状的总结,但是在表达方式上我觉得还需要另外一种阐述:

1、及时性:其实这个及时性有两种方式的理解,一个是人员对过程的熟练程度,另外一个是工具链的成熟度。数据处理是一个比较碎片化的过程,而这些过程的碎片化导致了过程的复杂性,从而导致上线周期过长,这显然是一个痛点,所以未来还会有更多的类似***Studio或者***Engine的产品出现,去整合这种碎片化从而让数据分析和可视化人员更加专注核心业务,进而缩短上线的周期。

2、新鲜度:说到这个新鲜度的问题,我们不妨回过头去思考,为什么这个阶段时空大数据这个概念得到广泛的流传?,最直接的原因可能就是由于采集感知手段的广泛应用从而导致数据采集的体量急剧增加以及数据本身的新鲜度都有了较大的提升,而这些东西的改变让时空大数据在应用场景上都充满了想象力,而这种数据的新鲜度也直接导致了“数字孪生”这个概念逐渐流行起来;

3、多源性:如特点1所说,时空数据处理过程的碎片化最直接的原因就是数据来源的碎片化,各种来源,各种格式,各种精度的数据都成为了数据处理管道需要能够吸收的对象,这种多源数据的处理一般都需要熟练的数据处理人员和成熟的商业平台来支撑,而这样的情况显然是影响了时空数据在智慧化领域的推广,所以如何以更加轻松的手段解决多源数据的融合问题成为未来需要解决的一个重点,之前Unfold Studio就提出了一种通过H3网格的方式来解决多源数据的对齐问题,其实也是一种思路。多源性一定程度上提高了数据的维度以及可靠性,但是在另一方面也增加了过程的复杂性。

4、持续性:时空大数据作为一个新的概念的原因就是这个阶段的“时空”是一体化的,我们分析的对象不再仅仅上只是空间这个维度了,时间也成为了一个标准的维度,就比如很多的数值模拟分析,时间就是一个很重要的变量,而不是只是作为空间数据的属性而存在,所以当前数据分析的场景不再是一个固定的时间点,而是增加了一个时间的维度,当然这也是新鲜度的提升促使的可能。

5、自动化:我记得Unfold的那篇文章中提到一个概念就是“end-to-end”的数据分析管道,数据分析的过程应该能够形成一个自动化的管道,而这种管道的能力应该是一个持续分析的过程和对于变化快速响应的过程,这一切的原因就是因为我们在数据来源上是持续新鲜的,同时在决策端需要的反馈也是要及时的,因而这也就需要我们在整个体系上是自动化的,当然这对于未来的数字孪生也是必要的。

一、云原生空间分析

通过对上面这组现状以及需求的分析,我们发现面向未来我们需要新的解决方案。而云原生空间数据基础架构将使我们能够更快地处理更多数据。通过云原生技术能够让过程变得透明,包括数据的处理以及底层的基础设施,这一切都是透明的。其实在这点上似乎很多GIS厂家都达成了一致,包括ESRI。在去年的ESRI用户大会的采访过程中,ESRI的CEO就透露在云原生这块,ESRI未来还是会继续重点投入Kubernates这样的平台,他未来希望能够在ArcGIS中做一个类似Google Earth Engine这样的云原生分析平台。

Stan Openshaw曾经说过“现在是一个合适的时间将数据主导的GIS时代过渡到计算地理学时代”,计算地理学并不是一个新概念,但是直到现在,由于有了云原生的能力,计算地理才成为可能。

二、下一代数据仓库

诸如BigQuery,Snowflake,Redshift和Azure Synapse Analytics之类的下一代数据仓库提供了基于SQL或Python notebooks的计算处理能力,而这些能力有三个关键的特征让这一代的数据仓库与上一代有着根本上的不同:

1. 计算存储分离:利用廉价的云存储并使您的所有数据始终可用,随时准备就绪;

2. 可伸缩性:根据实际的使用需求,透明且经济高效地利用大型计算能力,按需使用;

3. 数据多租户:直接在数据库中提供数据;

近期,主要的下一代数据仓库已为其产品都增加了空间支持-比如PostGIS,但要规模化,这是该行业向前迈出的重要一步。

在去年的空间数据科学大会上,Google Cloud的GIS产品负责人Chad W. Jennings博士详细介绍了BigQuery中的地理空间支持。

三、数据民主化(开放数据)

其实这里说的数据民主化和国内正在推行的“开放数据”很类似,但是前者的程度更深,为了便于理解我就直接将数据民主化翻译成为“开放数据”,数据民主化这个观点在国内提的比较少。

当今数据分析的主要问题之一是数据分析人员花费在收集正确数据上的时间量。我们经常听到,他们的总分析时间中有80%专用于收集,清洗和特征准备,而实际上只有剩余的20%花费在分析,建模和结果交流上。


数据市场允许位置数据民主化,他们提供了轻松了访问数千个公共和高级数据集的方法;简化了许可流程,并为最终用户提供了标准化的方法来访问最新的高质量的位置数据。

为了实现这样的目的首先还是需要为数据市场建立标准化的元数据,通过元数据就可以对所有数据产品进行一致化的探索和使用;

基于这样的数据市场,用户可以从本地环境访问数据;通过Jupyter Notebooks和Python软件包,或通过拖放、映射工具,以提取专题内容,并创建轻量级,直观的仪表板,而且这样的成果可以在不同的场景之间共享分发。

继续滑动看下一个
GIS小丸子
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存